实测揭秘!500 道人类未解难题考大模型,最佳仅 15% 通过验证 ChatGPT、Claude、Gemini……这些名字如雷贯耳的语言模型,几乎每天都在刷新我们对AI能力的认知。它们能写诗、解题、生成代码、做翻译,甚至在不少考试中“吊打”人类。 模型 claude uq pipeline 验证器 2025-09-16 18:13 7